STROJOVÉ UČENÍ (machine learning)
Zahrnuje soubor matematických metod a algoritmů pracujících na principu extrakce vhodné informace včetně případných číselných parametrů (například odhadů pravděpodobností vhodných jevů) z předložených příkladových (trénovacích, učících) vstupních dat. Výsledkem učení je počítačový model obsahující extrahovanou informaci a její parametry, který se uchovává pro další použití. Účelem je takto extrahovanou informaci (výsledný model) využít v dalším algoritmu jako součást systému pro automatické (počítačově zprostředkované) řešení konkrétního problému, např. klasifikační úlohy pro určení živočišného druhu na základě vnějších znaků, vytvoření skupin podobných objektů, tzv. shlukování (např. digitálních obrázků), n. předpovídání počasí na základě sebraných meteorologických dat. Metody s.u. jsou výpočetně často extrémně náročné, a to jak nezbytnými, matematicky složitými použitými algoritmy, tak velikostí trénovacích dat (často v řádech miliard příkladů a jejich kontextu). Použití s.u. v ↗počítačové lingvistice je v současné době převažující metodou řešení problémů zpracování přirozeného jazyka počítačem (viz ↗empirické metody zpracování jazyka), s nejlepšími výsledky v aplikačních oblastech, jako je ↗strojový překlad, ↗vyhledávání informací a ↗extrakce informací n. ↗dialogové systémy (Siri, Watson, Cortana); viz např. ✍Weaver (2013); ✍Ferrucci & Brown ad. (2010). S.u. lze nalézt ve všech oborech lidské činnosti, kde hraje roli jistá neurčitost – meteorologie, fyzika, biologie, chemie, lékařství, ekonomika a finance, technické obory a robotika (a související umělá inteligence), další společenské a humanitní vědy, prostředí internetu (cílení reklamy a chování uživatelů, vyhledávání), kriminalistika a mnoho dalších.
Základy moderního s.u. se zrodily v elektrotechnice při pokusech o dekódování elektrického signálu, který byl poškozen šumem (✍Shannon, 1948; ✍Weaver & Shannon, 1963). Modely typu „zdrojového kanálu se šumem“ (noisy source channel) se dodnes používají k řešení řady úloh i ve zcela nesouvisejících oborech (např. ✍Biswas & Blackburn(ová) ad., 2013).
S.u. se dělí na učení „s učitelem“ (vstupní trénovací data obsahují správné řešení či výsledek, např. u klasifikačních úloh, n. skutečné počasí, které nastalo v dané oblasti se změřenými vstupními údaji v případech předpovídání počasí) a na učení „bez učitele“ (vstupní trénovací data správný výsledek neobsahují, např. při shlukování). Obě metody lze v některých případech jistými algoritmy kombinovat, např. lze použít tzv. učení z vlastních výsledků (self‑learning), kdy se naučený model použije ke zpracování velkého množství dat bez předem daného správného řešení, a ta se následně iterativně použijí pro nové učení, jako kdyby předem správnými řešeními opatřena byla. Metody bez učitele lze použít jen pro omezené množství úloh, i když např. shlukování se často používá jako první a důležitý krok pro zmenšení dimenze problému pro následné učení typu „s učitelem“.
Metody s.u. se vybírají podle charakteristiky konkrétní aplikace, rovněž s ohledem na jejich složitost, zejména v případě, kdy je nutno se učit z velmi velkých dat. Záleží i na tom, co trénovací data obsahují, jaký kontext se považuje pro daný problém za relevantní a v případě klasifikačních úloh i to, do kolika tříd se klasifikace provádí (minimální počet je rozhodování typu ano/ne, tj. dvě třídy, maximální počet může růst do řádu 1012). Kontext pak je v datech reprezentován časově, prostorově, n. jako připojená informace vztažená ke každé položce trénovacích dat. Rozdílné metody se používají při získávání parametrů spojitých jevů vyjádřených pomocí reálných čísel a pro jevy kategoriální (matematicky diskrétní). Pro časové řady n. kontextově závislé posloupnosti dat se často používají markovovské modely a skryté markovovské modely (✍Mitchell, 1997; ✍Bishop, 2007), pro které existují efektivní algoritmy učení i použití (✍Viterbi, 1967). Mezi další metody patří diskriminativní metody, např. podmíněná pravděpodobnostní tělesa (CRF, Conditional Random Fields), SVM (Support Vector Machines; ✍Cortes(ová) & Vapnik, 1995), lineární regrese pro modelování matematicky spojitých procesů, logistická regrese a v poslední době zejména umělé neuronové sítě (ANN, n. krátce NN) a jejich „hluboká“ (vícevrstvá) varianta Deep Neural Networks (DNN) (✍Mikolov & Deoras ad., 2011; ✍Krizhevsky & Sutskever ad., 2012; ✍Peddinti & Sainath(ová) ad., 2014).
- Bishop, Ch. M. Pattern Recognition and Machine Learning (Information Science and Statistics), 2007.
- Biswas, R. & L. Blackburn ad. Application of Machine Learning Algorithms to the Study of Noise Artifacts in Gravitational-Wave Data. Physical Review D 88, 2013.
- Cortes, C. & V. Vapnik. Support-Vector Networks. Machine Learning 20, 1995, 273–297.
- Ferrucci, D. & E. Brown ad. Building Watson: An Overview of the DeepQA Project. AI Magazine 31, 2010, 59–79.
- Krizhevsky, A. & I. Sutskever ad. ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems 25 (NIPS 2012), 2012, 1097–1105.
- Mikolov, T. & A. Deoras ad. Strategies for Training Large Scale Neural Network Language Models. In Automatic Speech Recognition and Understanding (ASRU), IEEE Workshop, 2011, 196–201.
- Mitchell, T. M. Machine Learning, 1997.
- Peddinti, V. & T. N. Sainath ad. Deep Scattering Spectrum with Deep Neural Networks. In 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014, 210–214.
- Shannon, C. E. A Mathematical Theory of Communication. Bell System Technical Journal 27, July and October, 1948, 379–423, 623–656.
- Viterbi, A. J. Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm. IEEE Transactions on Information Theory 13, 1967, 260–269.
- Weaver, J. F. Robots are People Too: How Siri, Google Car, and Artificial Intelligence will Force Us to Change Our Laws, 2013.
- Weaver, W. & C. E. Shannon. The Mathematical Theory of Communication, 1963.
URL: https://www.czechency.org/slovnik/STROJOVÉ UČENÍ (poslední přístup: 21. 11. 2024)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka